查看原文
其他

【067】遗漏因子、缺失数据与多重检验

因子动物园管委会 因子动物园 2022-11-06

1. 简介

多重检验问题早已在统计学和金融界受到广泛的关注。在金融研究中,最广为人知的应用当属 Barras, Scaillet, and Wermers (2010). 三位作者将错误发现率(false discovery rate, FDR)引入到公募基金业绩的分析中。但 Andrikogiannopoulou and Papakonstantinou (2019) 这篇同样发表于 Journal of Finance 的新文章认为,BSW (2010) 的 FDR 方法受限于基金业绩的低信噪比和由此导致的较低的统计检验效力,而低估了有显著 alpha 的基金的占比。
特别地,近年来,随着基金行业的发展和因子研究的深入,相关研究也越来越细致、深入。仅 2020 年,Cam Harvey 教授就在这方面有两项重要工作见刊。Harvey and Liu (2020, RAPS) 对相关方法做了系统的综述(参见川总写量化常见多重检验方法及其实证 (I)),而 Harvey and Liu (2020, JF) 则提出了一种叫做 double-bootstrap 的新方法。这些方法在资产定价模型检验和基金业绩分析方面有着很重要的应用。
所有这些方法都建立在两个重要的基础假设上,即定价模型没有遗漏因子,同时,测试资产也没有缺失数据。但已有研究表明,遗漏因子可能是一个非常常见的问题,且其对因子溢价的估计有着显著影响。为此,Giglio and Xiu (2019) 提出了一个三步法来估计因子溢价(参见搞事情专栏|因子投资中的无监督学习),以应对遗漏因子问题的挑战。
而今天要介绍的,则是他们同 Liao 合作的一项即将发表在 Review of Financial Studies 的工作(该文刚在 RFS 官网 online available),即 Thousands of Alpha Tests(以下记作 GLX (2020)).
但本文不会详细介绍文中的方法细节,也不会非常仔细地讨论检验结果。我们将聚焦于文章要解决的问题和方法的设计逻辑,以及给我们的启示。具体的步骤,估计量的统计性质证明,以及详细的实证结果,请参见原文及其 Internet Appendix

2. 研究问题

在这篇新作中,他们关注的问题是“哪些对冲基金真正具有显著的 alpha”。这是多重检验问题的一个经典场景。虽然最常见的分析对象是公募基金(mutual funds),但对冲基金(hedge funds)的业绩分析也是同样重要的。
特别地,对冲基金的两个特征使得其更加符合该项研究问题。
首先,相比公募基金,已有研究表明,有显著 alpha 的对冲基金占比更多,且平均来看,对冲基金有显著的 alpha,与此形成鲜明对比的是,公募基金的费后 alpha,平均而言是负的(这一点,园长自己在跟踪公募基金研究,对此有很明显的感受,的确如此,美国和中国市场都是这样)。
其次,对冲基金的业绩之间的截面相关性非常高,表明其受到(未观测到的)共同因素的影响可能比公募基金更大。GLX (2020) 的实证分析显示,对冲基金业绩的 PCA 因子中,第一个因子的特征值为第二个因子的 3 倍多。因而,遗漏变量问题会使得分析、筛选对冲基金这一问题变得更加复杂。
同时,对冲基金数据面临的问题也较多,例如,很多对冲基金会选择性地披露业绩,以及很多对冲基金存续时间较短,使得从整体看,缺失数据问题也可能给分析带来不小的影响。
综合来看,这两个方面的问题使得对冲基金管理能力分析同其研究的一般问题最为匹配。

3. 分析方法

经典的多重检验,例如,GLX (2020) 所关心的 FDR,核心输入变量是一系列单重检验(single test)的 p-value. 为了应对前述遗漏因子和缺失数据问题,GLX (2020) 修改了估计基金 alpha 及其 p-value 的算法,以得到稳健的估计结果。
为了应对遗漏变量问题,他们引入了 Giglio and Xiu (2019) 提出的三步法来估计潜在因子(latent factors)的风险溢价。同时,考虑到可观测因子,尤其是可交易因子(tradable factors)包含有较为丰富的定价信息,因此,为了进一步提高模型对基金业绩的解释力,他们进一步扩展了模型,使得可以同时包容可观测因子和潜在因子。
而为了应对缺失数据问题,他们引入了**矩阵补全(matrix completion)**方法。该方法可以在数据存在缺失的情况下,用一个有较小的秩的矩阵来近似原矩阵。
因此,他们的具体方法包含以下步骤。
首先,利用矩阵补全方法补齐基金超额收益矩阵中的确实数据。
然后,利用修改后的因子溢价估计方法估计因子溢价,此处的因子既包括外生给定的可观测因子,也包括潜在因子。特别地,此环节包括三个步骤。
  • 首先是获取基金的因子暴露估计。具体而言,用通过每支基金收益对可观测因子的时序回归,获取对可观测因子的暴露以及残差,然后对(不同基金的)残差矩阵套用 Giglio and Xiu (2019) 的三步法的 PCA 环节,来获取对不可观测因子的暴露。
  • 接下来是获取因子溢价的估计,即通过基金(时序)平均收益对因子暴露的截面回归,获取所有因子的因子溢价估计。
  • 最后是基金 alpha 的估计,用基金平均收益减去因子暴露与因子溢价的乘积即可。
接下来就是计算基金 alpha 的 p-value.这一步可以用渐进估计,也可以像很多多重检验问题那样,使用 bootstrap 方法。
最后,基于计算的 p-value,代入关于 FDR 的经典的 B-H 步骤,得到最终结果。特别地,为了增强检验效力,GLX (2020) 指出,可以从原假设样本中剔除那些 alpha 负得非常厉害的基金,即 alpha 的 t-value 小于一个事先指定的临界值,其中,临界值同观测期 T 和基金数 N 有关。
基于 1994 - 2018 年间 TASS 数据库的对冲基金数据,GLX (2020) 的研究表明,无论在样本内还是样本外,上述新方法筛选出的基金,都有更高、更显著的 alpha。此外,对于实践而言非常重要的是,该方法筛选出的基金占比和平均管理资产规模(AUM)也都高于传统方法,使得投资者不用担心该方法在大规模应用下会失效。

4. 结语

GLX (2020) 针对基金业绩分析的多重检验问题中所面临的的遗漏因子和缺失数据问题,提出了一个新的估计方法,可以更好地筛选那些真正有 alpha 的对冲基金,且不会受到管理规模的约束。
更为重要的是,他们提出的是一个针对多重检验问题中的遗漏因子和缺失数据的普世的方法论,而不仅仅针对基金业绩分析这一特定问题。就像 Harvey and Liu (2020, JF) 为他们的研究所举的例子一样,该方法可以很容易地应用于公募基金的业绩分析以及异象的检测。此外,该方法中的每个部分事实上也是相对独立的,可以根据具体问题的性质,独立地加以应用。例如,当没有数据缺失问题时,就不需要数据补全这一步。
特别地,未来可以考虑结合该方法和 Harvey and Liu (2020, JF) 的方法,看看是否可以进一步提升算法的表现,因为二者侧重解决的是不同的问题。GLX (2020) 的关注点不用再赘述,而 Harvey and Liu (2020, JF) 则更关注在控制第一类错误(FDR)的同时,也要尽量控制第二类错误。这是值得探索的一个未来方向。
全文完。

References:
  • Andrikogiannopoulou, Angie, and Filippos Papakonstantinou. "Reassessing false discoveries in mutual fund performance: Skill, luck, or lack of power?." Journal of Finance 74.5 (2019): 2667-2688.
  • Barras, Laurent, Olivier Scaillet, and Russ Wermers. "False discoveries in mutual fund performance: Measuring luck in estimated alphas." Journal of Finance 65.1 (2010): 179-216.
  • Giglio, Stefano, and Dacheng Xiu. "Asset pricing with omitted factors." Chicago Booth Research Paper 16-21 (2019).
  • Giglio, Stefano, Yuan Liao, and Dacheng Xiu. "Thousands of alpha tests." Review of Finance Studies forthcoming (2020).
  • Harvey, Campbell R., Yan Liu, and Alessio Saretto. "An evaluation of alternative multiple testing methods for finance applications." Review of Asset Pricing Studies 10.2 (2020): 199-248.
  • Harvey, Campbell R., and Yan Liu. "False (and missed) discoveries in financial economics." Journal of Finance 75.5 (2020): 2503-2553.


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存